Národní úložiště šedé literatury Nalezeno 20 záznamů.  1 - 10další  přejít na záznam: Hledání trvalo 0.00 vteřin. 
Kdy kdo mluví?
Tomášek, Pavel ; Karafiát, Martin (oponent) ; Matějka, Pavel (vedoucí práce)
Práce se věnuje implementaci diarizace mluvčího. Popisuje jednotlivé komponenty diarizačního systému, který umí zodpovědět otázku "kdy kdo mluví". Mezi součásti takového systému patří postupně extrakce příznaků vstupních dat, detekce řeči/ticha, segmentace mluvčích, jejich následné shlukování a nakonec i techniky zaměřené na zlepšení finální segmentace. Práce pochopitelně uvádí i dosažené výsledky implementovaného systému na testovací sadě nahrávek včetně popisu způsobu hodnocení. Testovací nahrávky pochází z NIST RT evaluací z let 2005 - 2007 a nejnižší dosažená chybovost na této sadě je 18,52% DER. K porovnání výsledků systému na testovací sadě souborů je zde uvedena i úspěšnost Marijna Huijbregtse z Nizozemí, který v roce 2009 pracoval se stejnými nahrávkami a dosáhl chybovosti 12,91% DER.
Detekce lidské řeči v audio nahrávce
Břenek, Roman ; Grézl, František (oponent) ; Matějka, Pavel (vedoucí práce)
Tato práce se zabývá technikami detekce lidské řeči v nahrávkách. Je nutné při rozpoznávání správně klasifikovat všechny neřečové segmenty a naopak rozpoznat veškerou řeč i v hlučných a zašuměných prostředích. V práci je popsán celý proces rozpoznávání, tzn. digitalizace audio signálu, extrakce příznaků, trénování klasifikátoru, rozpoznávání a samotné vyhodnocení a úpravy před vyhodnocením. Pro rozpoznávání byly použity tři systémy, z nichž jeden je založen na fonémovém rozpoznávání pomocí neuronových sítí, další dva jsou založené na GMM, přičemž každý systém byl testován na třech datových sadách - Tactical Speaker Identification Speech Corpus (TSID), Ham Radio (HR) a Rich Transcription Evaluation (RT05-RT07).  Nejlepší výsledky každého systému jsou pak zhodnoceny i s výsledky třetích stran.
Personal Voice Activity Detection
Sedláček, Šimon ; Landini, Federico Nicolás (oponent) ; Švec, Ján (vedoucí práce)
This work aims to implement, test, and evaluate a speaker-conditioned Voice Activity Detection (VAD) method called Personal VAD. The method builds upon an LSTM-based approach to VAD and its purpose is to introduce a system that can reliably detect speech of a target speaker, while retaining the typical characteristics of a VAD system, mainly in terms of small model size, low latency, and low necessary computational resources. The system is trained to distinguish between three classes: non-speech, target speaker speech, and non-target speaker speech. For this purpose, the method utilizes speaker embeddings as a part of the input feature vector to represent the target speaker. Some of the more heavyweight personal VAD variants also make use of speaker verification scores issued to each frame based on the target embedding, resulting in a more robust system. In addition to the one scoring method presented in the original article, two other scoring approaches are introduced, both outperforming the baseline method and improving the performance even for acoustically challenging conditions.
Metody pro zvýraznění řeči
Kukučka, Peter ; Mekyska, Jiří (oponent) ; Hudec, Antonín (vedoucí práce)
Cílem práce je objasnit některé jednokanálové metody pro zpracováni řeči. V této práci jsou rozebrané metody: základní metoda spektrálního odečítání, modifikovaná metoda spektrálního odečítání, pásmové spektrální odečítání a spektrální odečítání MMSE, Wienerovo filtrování. Všechny metody jsou implementovány. Kromě toho jsou v této práci popsané předzpracování řeči, detektor řečové aktivity a hodnocení řeči.
Analýza telefonního hovoru mezi dvěma lidmi
Herceková, Monika ; Schwarz, Petr (oponent) ; Matějka, Pavel (vedoucí práce)
Tato práce se zabýva analýzou telefonního hovoru mezi dvěma lidmi. Popisuje možné projevy řeči a ticha v nahrávce a zdůvodňuje kritéria pro vyslechnutí si nahrávky. V práci je navrhnutý a implementovaný prototyp aplikace pro analýzu rozhovoru. Na závěr jsou představena možná rozšíření prototypu v budoucnosti.
Automatic speech recordings segmentation tool
Santa, Roman ; Zvončák, Vojtěch (oponent) ; Kováč, Daniel (vedoucí práce)
Automatic Segmentation tool processes recordings in order to extract voiced parts. It is important for further speech analysis to work only with extracted speech and not noise. For analysis of the difference between syllables of patients with parkinson disease and heatlhy ones, this segmentation tool should help with processing recordings. Goal of this thesis is to implement and test voice detectors with Google WebRTC detector and pick the best speech detector with minimal error rate. Also, develop a segmentation tool for given recordings and test voice recognition with dymanic time warping. Database from the Brain Diseases Analysis Laboratory was used. It contains czech and hungarian recordings with equal number of male and female as well as heathy and diseased patients. Energy detector performed as the best detetor in the tests. There was no significant difference in error rates between male and female or healthy and diseased patients. Recordings with lower Signal-to-Noise ratio were harder to process with an error rate starting at 12\%. Based on the results, new detector for the segmentation tool was proposed to process examined recordings. Finally, dynamic time warping algorithm was tested with mel frequency cepstral coefficients to recognize similarities between speakers.
Automatic Speech Detection for VHF Channel
Nováková, Mária ; Veselý, Karel (oponent) ; Szőke, Igor (vedoucí práce)
A noisy environment in air traffic communication is an unavoidable problem. The communication between the control tower and the pilot should be the most reliable and effective. That is why voice activity detection is crucial for recognising the start of the speech segment of the communicants for automated systems. The speakers take turns providing information by pressing the push-to-talk button. To detect voice activity, various approaches are used. Even though these methods are effective, machine learning can easily outshine them. Neural networks are widely used in voice activity detection as well as in other areas. Properly trained models are efficient and adaptable. In this thesis, a solution for voice activity detection together with push-to-talk detection is proposed. Proposed models are evaluated and compared. The adaptation of the GPVAD approach is discussed and compared to the proposed models. Neural networks will have their chance to once again prove that they are suitable for any task.
Analýza prosodických a spektrálních vlastností hlasové komunikace v řízení letového provozu
Simonides, Jakub ; Kopřiva, Tomáš (oponent) ; Smékal, Zdeněk (vedoucí práce)
Práca analyzuje prozodické a spektrálne vlastnosti oboch smerov komunikácie riadenia letovej prevádzky, opisuje rozdelenie komunikácie na segmenty v smere od pilota k veži a od veže k pilotovi na základe prepisu. Následne sú jednotlivé segmenty podrobené hĺbkovej analyze ich vlastností. Analyza sa zameriava na spektrum reči v obidvoch smeroch, konkrétne na intenzitu, základnú frekvenciu F0, spektrálnu strmosť a centroid. Naviac ku tomu je vykonaná aj analyza rychlosti reči a detekovania reči. Na základe rozdielnosti tychto parametrov, pre každy smer komunikácie, sú určené faktory, ktoré dopomáhajú k automatickému rozpoznaniu smeru komunikácie.
Identifikace hudby, řeči, křiku, zpěvu v audio (video) záznamu
Danko, Michal ; Malenovský, Vladimír (oponent) ; Szőke, Igor (vedoucí práce)
Tato práce navazuje na trend posledních desetiletí ve využívaní neuronových sítí za účelem odhalení řeči v zašuměných datech. Text začíná základními poznatky o probíraných tématech, jako jsou audio příznaky, strojové učení a neuronové sítě. Síťové parametry jsou zkoumány s cílem poskytnout nejvhodnější zázemí pro experimenty. Hlavní úkol experimentů je sledovat vliv různých zvukových událostí na detekci řeči na malé a různorodé databáze. Přičemž se ukázalo, že nejvýhodnější jsou zvukové události v korelaci s řečí. Kromě toho, přesnost akustických událostí, dříve použita pouze jako doplněk k přesnosti řeči, je také součástí experimentování. Experiment zkoumání datových sad rozšiřených o více spravedlivě rozděleny data ukázal, že samotné rozšiření nezaručuje zlepšení. Na závěr, poslední experiment demonstruje, že síti se skutečně podařilo naučit, jak předpovědět hlasové aktivity v obou případech čistých i zašuměných dat.
Voice Activity Detection
Ent, Petr ; Karafiát, Martin (oponent) ; Matějka, Pavel (vedoucí práce)
This thesis deals with usage Support Vector Machines (SVM) for Speech Activity Detection (SAD). The first part of the thesis deals with comparison of different feature extractions and different methods of construction supervectors for classifying speech using SVM. The second part presents SVM based SAD system. All experiments were performed on ERT broadcast new database. Final comparison with two other approaches (phoneme and GMM based) was done on standard NIST 2006 Rich Test Evaluation database.

Národní úložiště šedé literatury : Nalezeno 20 záznamů.   1 - 10další  přejít na záznam:
Chcete být upozorněni, pokud se objeví nové záznamy odpovídající tomuto dotazu?
Přihlásit se k odběru RSS.